from pandas import Series, DataFrame
import pandas as pd
import numpy as np
import os

path = '.\\data'
files = os.listdir(path)  # 从data文件夹下读取文件名（无序）
# print(files)
files_name = []
# 获取
for name in files:
    names = name.rstrip('.csv')  # 将文件的扩展名去掉，得到地名
    files_name.append(names)
# print(files_name)
# 数据清洗
for names in files_name:
    file_name = f'.\\data\\{names}.csv'
    df = pd.read_csv(file_name, encoding='utf-8')  # 读取文件中的内容
    labels = list(df.columns.values)  # 获取列的索引
    df = df.reset_index()  # 将旧的行索引变为列值，并创建新的行索引
    df.rename(columns={'index': '年份', f'{names}': '分数'}, inplace=True)  # 将列索引改名
    df.insert(df.shape[1], labels[0], True)  # 创建一个新列，赋值为True,将labels[0]作为该列的索引
    df = df[
        ~(df['分数'].isin(['第一批']) | df['分数'].isin(['第二批']) | df['分数'].isin(['第三批']))]  # 删去分数那一列中行值为’第一批‘ ’第二批‘ ’第三批‘的每一行
    df = df.drop_duplicates(['年份'])  # 删去年份那一列中的重复值
    # print(df.head()) #测试
    df.to_csv(f'.\\newdata\\{names}.csv')

# print(df.shape)
# print(df.index)
# print(df.columns)
# print(df.count())


# states=['年份','分数']
# df=df.reindex(columns=states)
# df.rename(columns={'index':'年份','北京':'分数'},inplace=True)
# isdup=df.duplicates()
